任意形状的文本检测是一项具有挑战性的任务,这是由于大小和宽高比,任意取向或形状,不准确的注释等各种变化的任务。最近引起了大量关注。但是,文本的准确像素级注释是强大的,现有的场景文本检测数据集仅提供粗粒的边界注释。因此,始终存在大量错误分类的文本像素或背景像素,从而降低基于分割的文本检测方法的性能。一般来说,像素是否属于文本与与相邻注释边界的距离高度相关。通过此观察,在本文中,我们通过概率图提出了一种创新且可靠的基于分割的检测方法,以准确检测文本实例。为了具体,我们采用Sigmoid alpha函数(SAF)将边界及其内部像素之间的距离传输到概率图。但是,由于粗粒度文本边界注释的不确定性,一个概率图无法很好地覆盖复杂的概率分布。因此,我们采用一组由一系列Sigmoid alpha函数计算出的概率图来描述可能的概率分布。此外,我们提出了一个迭代模型,以学习预测和吸收概率图,以提供足够的信息来重建文本实例。最后,采用简单的区域生长算法来汇总概率图以完成文本实例。实验结果表明,我们的方法在几个基准的检测准确性方面实现了最先进的性能。
translated by 谷歌翻译
随着电子商务行业的繁荣,将各种方式(例如愿景和语言)用于描述产品项目。了解这种多样化的数据是一个巨大的挑战,尤其是通过有用的图像区域提取文本序列中的属性值对。尽管以前的一系列作品已致力于这项任务,但很少有人研究障碍,阻碍了进一步的进一步改进:1)上流单模式预处理的参数不足,而无需在下游多人中进行适当的合理微调。 - 模式任务。 2)要选择图像的描述性部分,不管先验的信息应通过更强的编码器将与语言相关的信息编码为常见的语言嵌入空间,从而广泛应用了简单的晚期融合。 3)由于产品之间的多样性,它们的属性集往往差异很大,但是当前的方法以不必要的最大范围预测,并带来更多潜在的假阳性。为了解决这些问题,我们在本文中提出了一种新颖的方法,可以通过统一学习方案和动态范围最小化提高多模式电子商务属性的价值提取:1)首先,统一方案旨在共同培训多模式任务带有预审计的单模式参数。 2)其次,提出了一种文本引导的信息范围最小化方法,以将每种模态的描述性部分自适应地编码为具有强大审慎的语言模型的相同空间。 3)此外,提出了一种原型引导的属性范围最小化方法,以首先确定当前产品的适当属性集,然后选择原型以指导所选属性的预测。关于流行的多模式电子商务基准的实验表明,我们的方法比其他最新技术的方法更出色。
translated by 谷歌翻译
在生成对抗网络(GAN)中操纵潜在代码的面部图像合成主要集中于连续属性合成(例如,年龄,姿势和情感),而离散属性合成(例如面膜和眼镜)受到较少的注意。直接将现有作品应用于面部离散属性可能会导致结果不正确。在这项工作中,我们提出了一个创新的框架,以通过语义分解,称为SD-GAN来解决具有挑战性的面部离散属性合成。要具体,我们将离散属性表示形式明确分解为两个组件,即语义先验和偏移潜在表示。语义先验基础显示了在潜在空间中操纵面部表示的初始化方向。提出了通过3D感知语义融合网络获得的偏移潜在呈现,以调整先前的基础。此外,融合网络集成了3D嵌入,以更好地身份保存和离散属性合成。先前基础和抵消潜在表示的组合使我们的方法能够合成具有离散属性的照片真实面部图像。值得注意的是,我们构建了一个大型且有价值的数据集MEGN(从Google和Naver捕获的面膜和眼镜图像),以完成现有数据集中缺乏离散属性。广泛的定性和定量实验证明了我们方法的最新性能。我们的代码可在以下网址找到:https://github.com/montaellis/sd-gan。
translated by 谷歌翻译
在任意形状的文本检测中,定位准确的文本边界具有挑战性且不平淡。现有方法通常会遭受间接的文本边界建模或复杂的后处理。在本文中,我们通过边界学习进行系统地呈现一个统一的粗到精细的框架,以进行任意形状的文本检测,该框架可以准确有效地定位文本边界而无需后处理。在我们的方法中,我们通过创新的文本边界明确地对文本边界进行了明确模拟迭代边界变压器以粗到十的方式。这样,我们的方法可以直接获得准确的文本边界并放弃复杂的后处理以提高效率。具体而言,我们的方法主要由特征提取主链,边界建议模块和迭代优化的边界变压器模块组成。由多层扩张卷积组成的边界提案模块将计算重要的先验信息(包括分类图,距离场和方向场),以生成粗边界建议,同时指导边界变压器的优化。边界变压器模块采用编码器模块结构,其中编码器由具有残差连接的多层变压器块构造,而解码器是一个简单的多层perceptron网络(MLP)。在先验信息的指导下,边界变压器模块将通过迭代边界变形逐渐完善粗边界建议。此外,我们提出了一种新型的边界能量损失(BEL),该损失引入了能量最小化约束和单调减少约束的能量,以进一步优化和稳定边界细化的学习。关于公开可用和挑战数据集的广泛实验证明了我们方法的最先进性能和有希望的效率。
translated by 谷歌翻译
在对象检测中,广泛采用了非最大抑制(NMS)方法以删除检测到的密集盒的水平重复,以生成最终的对象实例。但是,由于密集检测框的质量降低,而不是对上下文信息的明确探索,因此通过简单的交叉联盟(IOU)指标的现有NMS方法往往在多面向和长尺寸的对象检测方面表现不佳。通过重复删除与常规NMS方法区分,我们提出了一个新的图形融合网络,称为GFNET,用于多个方向的对象检测。我们的GFNET是可扩展的和适应性熔断的密集检测框,可检测更准确和整体的多个方向对象实例。具体而言,我们首先采用一种局部意识的聚类算法将密集检测框分组为不同的簇。我们将为属于一个集群的检测框构建一个实例子图。然后,我们通过图形卷积网络(GCN)提出一个基于图的融合网络,以学习推理并融合用于生成最终实例框的检测框。在公共可用多面向文本数据集(包括MSRA-TD500,ICDAR2015,ICDAR2017-MLT)和多方向对象数据集(DOTA)上进行广泛实验。
translated by 谷歌翻译
场景文本识别是一个流行的主题,在行业中广泛使用。尽管许多方法在封闭式文本识别挑战方面取得了令人满意的性能,但这些方法在开放式场景中丧失了可行性,在开放式场景中,收集数据或新颖性格的重新培训可能会产生高成本。例如,对外语的注释样本可能很昂贵,而每次从历史文档中发现新颖角色时,请重新训练该模型。在本文中,我们介绍并制定了一项新的开放式文本识别任务,该任务要求能够发现和识别新颖的角色而无需再培训。标签到原型学习框架也被提议作为建议任务的基准。具体而言,该框架引入了可推广的标签到原型映射功能,以构建可见和看不见类的原型(类中心)。然后使用开放式预测指标来识别或拒绝样品。在集合字符上的拒绝能力实现允许在传入数据流中自动发现未知字符。广泛的实验表明,我们的方法在各种零射击,封闭设置和开放式文本识别数据集上实现了有希望的性能
translated by 谷歌翻译
通过对齐跨模型自动化器的潜在空间来学习共同的潜在嵌入是广义零拍分类(GZSC)的有效策略。然而,由于缺乏细粒度的实例 - 明智的注释,它仍然很容易遭受域移位问题,用于多样化图像的视觉表示与固定属性的语义表示之间的差异。在本文中,我们通过学习对齐的跨模型表示(称为ACMR)来提出创新的AutoEncoder网络,用于GZSC。具体地,我们提出了一种新的视觉 - 语义对准(VSA)方法,以加强由学习分类器引导的潜在子空间上的交叉模态潜在特征的对准。此外,我们提出了一种新颖的信息增强模块(IEM),以减少潜在变量折叠的可能性同时鼓励潜在变量的判别能力。公开数据集的广泛实验证明了我们方法的最先进的性能。
translated by 谷歌翻译
当然,细粒度的识别,例如车辆识别或鸟类分类,具有特定的分层标签,其中精细类别总是难以分类而不是粗作品。然而,最近的大多数基于深度学习的方法都忽略了细粒物体的语义结构,并且不利用传统的细粒度识别技术(例如,粗致细的分类)。在本文中,我们提出了一种具有双分支网络(粗分支和细枝)的新颖框架,即语义双线性汇集,用于使用分级标签树进行细粒度识别。该框架可以自适应地从层级中学习语义信息。具体而言,我们设计了通过考虑相邻水平与不同粗级别的样本之间的距离来完全利用语义前导者来充分利用语义前导者的训练的广义交叉熵损失。此外,我们的方法在测试时仅利用细分分支,以便在测试时间内增加开销。实验结果表明,我们的提出方法在四个公共数据集上实现了最先进的性能。
translated by 谷歌翻译
We introduce a new tool for stochastic convex optimization (SCO): a Reweighted Stochastic Query (ReSQue) estimator for the gradient of a function convolved with a (Gaussian) probability density. Combining ReSQue with recent advances in ball oracle acceleration [CJJJLST20, ACJJS21], we develop algorithms achieving state-of-the-art complexities for SCO in parallel and private settings. For a SCO objective constrained to the unit ball in $\mathbb{R}^d$, we obtain the following results (up to polylogarithmic factors). We give a parallel algorithm obtaining optimization error $\epsilon_{\text{opt}}$ with $d^{1/3}\epsilon_{\text{opt}}^{-2/3}$ gradient oracle query depth and $d^{1/3}\epsilon_{\text{opt}}^{-2/3} + \epsilon_{\text{opt}}^{-2}$ gradient queries in total, assuming access to a bounded-variance stochastic gradient estimator. For $\epsilon_{\text{opt}} \in [d^{-1}, d^{-1/4}]$, our algorithm matches the state-of-the-art oracle depth of [BJLLS19] while maintaining the optimal total work of stochastic gradient descent. We give an $(\epsilon_{\text{dp}}, \delta)$-differentially private algorithm which, given $n$ samples of Lipschitz loss functions, obtains near-optimal optimization error and makes $\min(n, n^2\epsilon_{\text{dp}}^2 d^{-1}) + \min(n^{4/3}\epsilon_{\text{dp}}^{1/3}, (nd)^{2/3}\epsilon_{\text{dp}}^{-1})$ queries to the gradients of these functions. In the regime $d \le n \epsilon_{\text{dp}}^{2}$, where privacy comes at no cost in terms of the optimal loss up to constants, our algorithm uses $n + (nd)^{2/3}\epsilon_{\text{dp}}^{-1}$ queries and improves recent advancements of [KLL21, AFKT21]. In the moderately low-dimensional setting $d \le \sqrt n \epsilon_{\text{dp}}^{3/2}$, our query complexity is near-linear.
translated by 谷歌翻译
New architecture GPUs like A100 are now equipped with multi-instance GPU (MIG) technology, which allows the GPU to be partitioned into multiple small, isolated instances. This technology provides more flexibility for users to support both deep learning training and inference workloads, but efficiently utilizing it can still be challenging. The vision of this paper is to provide a more comprehensive and practical benchmark study for MIG in order to eliminate the need for tedious manual benchmarking and tuning efforts. To achieve this vision, the paper presents MIGPerf, an open-source tool that streamlines the benchmark study for MIG. Using MIGPerf, the authors conduct a series of experiments, including deep learning training and inference characterization on MIG, GPU sharing characterization, and framework compatibility with MIG. The results of these experiments provide new insights and guidance for users to effectively employ MIG, and lay the foundation for further research on the orchestration of hybrid training and inference workloads on MIGs. The code and results are released on https://github.com/MLSysOps/MIGProfiler. This work is still in progress and more results will be published soon.
translated by 谷歌翻译